A Theoretical Study on Bridging Internal Probability and Self-Consistency for LLM Reasoning
※このページは生成された文章がベースです。信憑性不明、詳細はしらべてください。
いずれ手を入れる予定です。
test-time scalingにおける理論的分析を提示し、LLMの推論誤差を2つに種別する提案
Estimation ErrorModel Error
Model Error
比較分析したうえで、それぞれの限界を定式化
Self-Consistency (SC)
推論パスの多数決(Monte-Carlo Avg.)
Perplexity (PPL)
その上で、両者の長所を組み合わせた新手法の提案
Reasoning-Pruning Perplexity Consistency (RPC)
Perplexity Consistency
確率値を自己整合性に統合し、線形→指数的な収束を実現。
Reasoning Pruning
低確率パスを切り捨て、収束劣化を防止。
7つのベンチマーク(数学推論4種+コード生成3種)により、推論精度と信頼性を維持したままサンプリングコストを約50 %削減することを実証
7つのbenchの詳細を書く